捕获该段落中的单词中复杂语言结构和长期依赖性的能力对于话语级关系提取(DRE)任务是必不可少的。图形神经网络(GNNS)是编码依赖图的方法之一,它在先前的RE中有效地显示了。然而,对GNN的接受领域得到了相对较少的关注,这对于需要话语理解的非常长的文本的情况可能是至关重要的。在这项工作中,我们利用图形汇集的想法,并建议在DRE任务上使用汇集解凝框架。汇集分支减少了图形尺寸,使GNN能够在更少的层内获得更大的接收领域; UnoDooling分支将池化图恢复为其原始分辨率,以便可以提取实体提及的表示。我们提出子句匹配(cm),这是一个新的语言启发图形汇集方法,用于NLP任务。两个DE DATASET上的实验表明,我们的模型在需要建模长期依赖性时显着改善基线,这表明了汇集了解冻框架的有效性和我们的CM汇集方法。
translated by 谷歌翻译
Large language models (LLMs) have demonstrated impressive capabilities in natural language understanding and generation, but the quality bar for medical and clinical applications is high. Today, attempts to assess models' clinical knowledge typically rely on automated evaluations on limited benchmarks. There is no standard to evaluate model predictions and reasoning across a breadth of tasks. To address this, we present MultiMedQA, a benchmark combining six existing open question answering datasets spanning professional medical exams, research, and consumer queries; and HealthSearchQA, a new free-response dataset of medical questions searched online. We propose a framework for human evaluation of model answers along multiple axes including factuality, precision, possible harm, and bias. In addition, we evaluate PaLM (a 540-billion parameter LLM) and its instruction-tuned variant, Flan-PaLM, on MultiMedQA. Using a combination of prompting strategies, Flan-PaLM achieves state-of-the-art accuracy on every MultiMedQA multiple-choice dataset (MedQA, MedMCQA, PubMedQA, MMLU clinical topics), including 67.6% accuracy on MedQA (US Medical License Exam questions), surpassing prior state-of-the-art by over 17%. However, human evaluation reveals key gaps in Flan-PaLM responses. To resolve this we introduce instruction prompt tuning, a parameter-efficient approach for aligning LLMs to new domains using a few exemplars. The resulting model, Med-PaLM, performs encouragingly, but remains inferior to clinicians. We show that comprehension, recall of knowledge, and medical reasoning improve with model scale and instruction prompt tuning, suggesting the potential utility of LLMs in medicine. Our human evaluations reveal important limitations of today's models, reinforcing the importance of both evaluation frameworks and method development in creating safe, helpful LLM models for clinical applications.
translated by 谷歌翻译
Natarajan维度是表征多级PAC可学习性的基本工具,将VAPNIK-CHERVONENKIS(VC)维度推广到从二进制到多类分类问题。本说明在某些功能类别的Natarajan维度上建立了上限,包括(i)多级决策树和随机森林,以及(ii)具有二进制,线性和relu激活的多级神经网络。这些结果可能与描述某些多级学习算法的性能有关。
translated by 谷歌翻译
前列腺活检和图像引导的治疗程序通常是在与磁共振图像(MRI)的超声指导下进行的。准确的图像融合依赖于超声图像上前列腺的准确分割。然而,超声图像中降低的信噪比和工件(例如,斑点和阴影)限制了自动前列腺分割技术的性能,并将这些方法推广到新的图像域是本质上很难的。在这项研究中,我们通过引入一种新型的2.5D深神经网络来解决这些挑战,用于超声图像上的前列腺分割。我们的方法通过组合有监督的域适应技术和知识蒸馏损失,解决了转移学习和填充方法的局限性(即,在更新模型权重时,在更新模型权重时的性能下降)。知识蒸馏损失允许保留先前学习的知识,并在新数据集上的模型填充后降低性能下降。此外,我们的方法依赖于注意模块,该模块认为模型特征定位信息以提高分割精度。我们对一个机构的764名受试者进行了培训,并仅使用后续机构中的十个受试者对我们的模型进行了审核。我们分析了方法在三个大型数据集上的性能,其中包括来自三个不同机构的2067名受试者。我们的方法达到了平均骰子相似性系数(骰子)为$ 94.0 \ pm0.03 $,而Hausdorff距离(HD95)为2.28 $ mm $,在第一机构的独立受试者中。此外,我们的模型在其他两个机构的研究中都很好地概括了(骰子:$ 91.0 \ pm0.03 $; hd95:3.7 $ mm $ and Dice:$ 82.0 \ pm0.03 $; hd95 $; hd95:7.1 $ mm $)。
translated by 谷歌翻译
给定有关消费者对不同分类的选择的数据,一个关键的挑战是开发描述和预测消费者选择行为的简约模型。一个这样的选择模型是边际分布模型,它仅需要替代方案随机实用程序的边际分布的规范,以解释选择数据。在本文中,我们开发了一组选择概率的精确表征,这些概率是通过边际分布模型在任何集合中始终如一地表示的。为了根据其实用程序的边际分布进行分组的可能性,我们表明(a)在多项式时间内可以验证选择概率数据的一致性,并且(b)找到最接近的拟合量可以减少解决混合的拟合。整数凸面程序。我们的结果表明,与随机效用模型相比,与多项式logit相比,边际分布模型提供了更好的代表力和更好的计算性能。
translated by 谷歌翻译
在这项工作中,我们证明了多种语的大规模序列到序列(SEQ2SEQ)模型,该模型是通过Denoising和因果语言建模(CLM)任务的混合物进行训练的,比仅解码器模型更有效地进行了效率的学习者在各种任务上。特别是,我们培训了一个名为Alexa教师模型(Alexatm 20b)的200亿个参数多语言SEQ2SEQ模型,并表明它在1-Shot摘要任务上实现了最先进的(SOTA)性能,超过了更大的540B PALM DOPODER模型。 Alexatm 20b还可以在1-Shot Machine翻译中实现SOTA,尤其是对于低资源语言,几乎所有语言对(阿拉伯语,英语,法语,德语,德语,印地语,意大利语,日语,以及flores-101数据集上的泰卢固语)。我们还显示了零拍设置,AlexATM 20B在SuperGlue和SqueadV2数据集上的表现优于GPT3(175B),并在XNLI,XCOPA,PAWS-X和XWINOGRAD等多语言任务上提供SOTA性能。总体而言,我们的结果为SEQ2SEQ模型提供了一个令人信服的案例,作为大型语言模型(LLM)培训的仅解码器模型的强大替代方法。
translated by 谷歌翻译
对新闻文章的政治偏见进行分类的传统方法未能产生准确的,可概括的结果。 CNN和DNN上的前提的现有网络缺乏识别和推断诸如单词选择,上下文和演示文稿之类的微妙指标的模型。在本文中,我们提出了一个网络体系结构,该网络体系结构在为文章分配偏见分类方面达到了人类水平的准确性。基础模型基于新型网格神经网络(MNN),该结构可实现网格中任何两个神经元之间的反馈和进发突触连接。 MNN ONTARE ONING六个网络配置,利用基于Bernoulli的随机采样,预训练的DNN和以C. exemans nematode建模的网络。该模型接受了从Allsides.com刮除的一千多篇文章的培训,这些文章被标记为表明政治偏见。然后使用适合反馈神经结构的遗传算法进化网络的参数。最后,最佳性能模型适用于美国的五个流行新闻来源,在为期五十天的试验中,以量化其展示的文章中的政治偏见。我们希望我们的项目能够刺激NLP任务的生物解决方案研究,并为公民提供准确的工具,以了解他们消耗的文章中微妙的偏见。
translated by 谷歌翻译
我们将人机协作问题解决的问题视为一项计划任务,再加上自然语言交流。我们的框架由三个组成部分组成 - 一种自然语言引擎,将语言话语解析为正式代表,反之亦然,这是一个概念学习者,该概念学习者基于与用户的有限互动来诱导计划的广义概念,以及解决方案的HTN规划师,以解决该计划。基于人类互动的任务。我们说明了该框架通过在基于Minecraft的Blocksworld域中的协作构建任务中证明协作问题解决的关键挑战的能力。随附的演示视频可在https://youtu.be/q1pwe4aahf0上获得。
translated by 谷歌翻译
对生物医学图像进行操纵以虚假陈述实验结果,困扰着生物医学界。对该问题的最新兴趣导致了数据集和相关任务的策划,以促进生物医学法医方法的发展。其中,最大的操纵检测任务侧重于检测图像之间的重复区域。基于自然图像训练的法医模型的传统计算机视觉并非旨在克服生物医学图像带来的挑战。我们提出了一个多尺度重叠检测模型,以检测重复的图像区域。我们的模型的结构是从层次上找到重复,以减少补丁操作的数量。它总体上和多个生物医学图像类别都达到了最先进的性能。
translated by 谷歌翻译
GPT-3和Codex等非常大的语言模型(LLM)在几个自然语言任务上已经达到了最先进的性能,并且对代码也表现出了巨大的希望。LLM的一个特别令人兴奋的方面是他们进行几次射击和零射门学习的诀窍:他们可以学会在很少的示例中执行任务。很少有射击在软件工程中具有特殊的协同作用,那里有很多现象(标识符名称,API,术语,编码模式),这些现象被称为高度特定于项目的现象。但是,特定于项目的数据可能非常有限,尤其是在项目历史的早期;因此,LLM的几次学习能力可能非常相关。在本文中,我们研究了使用非常大的GPT(生成预训练的变压器)代码型模型的少量训练,并找到证据表明,一个人可以显着超过用于代码符号化的最新模型,并利用特定于项目的培训。
translated by 谷歌翻译